智能论文笔记

CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement

Sherif Abdulatif , Ruizhe Cao , Bin Yang

分类：人工智能 | 机器学习

2022-09-22

最近在各种语音域应用中提出了卷积增强的变压器（构象异构体），例如自动语音识别（ASR）和语音分离，因为它们可以捕获本地和全球依赖性。在本文中，我们提出了一个基于构型的度量生成对抗网络（CMGAN），以在时间频率（TF）域中进行语音增强（SE）。发电机使用两阶段构象体块编码大小和复杂的频谱图信息，以模拟时间和频率依赖性。然后，解码器将估计分解为尺寸掩模的解码器分支，以滤除不需要的扭曲和复杂的细化分支，以进一步改善幅度估计并隐式增强相信息。此外，我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明，与三个语音增强任务（DeNoising，dereverberation和Super-Losity）中的最新方法相比，CMGAN能够表现出卓越的性能。例如，对语音库+需求数据集的定量降解分析表明，CMGAN的表现优于以前的差距，即PESQ为3.41，SSNR为11.10 dB。

translated by 谷歌翻译

CMGAN: Conformer-based Metric GAN for Speech Enhancement

Ruizhe Cao , Sherif Abdulatif , Bin Yang

分类：人工智能 | 机器学习

2022-03-28

最近，卷积增强的变压器（构象异构体）在自动语音识别（ASR）和时间域语音增强（SE）中实现了有希望的表现，因为它可以捕获语音信号中的本地和全局依赖性。在本文中，我们在时间频率（TF）域中提出了SE的基于构型的度量生成对抗网络（CMGAN）。在发电机中，我们利用两阶段的构象体块来通过对时间和频率依赖性进行建模来汇总所有幅度和复杂的频谱图。大小和复杂谱图的估计在解码器阶段被解耦，然后共同掺入以重建增强的语音。此外，通过优化相应的评估评分，采用了度量歧视器来进一步提高增强估计语音的质量。语音库+需求数据集的定量分析表明，CMGAN在优于以前的模型的功能，即PESQ为3.41，SSNR为11.10 dB。

translated by 谷歌翻译

A MIMO Radar-based Few-Shot Learning Approach for Human-ID

Pascal Weller , Fady Aziz , Sherif Abdulatif , Urs Schneider , Marco F. Huber

分类：计算机视觉

2021-10-16

基于深度学习的人类识别的雷达已成为越来越兴趣的研究领域。已经表明，Micro Doppler（$ \ MU $ -D）可以通过捕获周期性的肢体微光来反映步行行为。主要方面之一是在考虑实时和培训数据集大小约束时最大化随附的类的数量。在本文中，使用多输入 - 多数输出（MIMO）雷达来制定高程角速度的微动光谱图（$ \ mu $ - $ \ $ \ omega $）。研究了将这种新型频谱图与常用$ \ mu $ -d连接的有效性。为了适应无约束的实际步行运动，使用自适应周期分割框架，并在半步态周期（$ \ $ \ $ 0.5 s）上训练了公制学习网络。研究了各种类级别（5--20），不同数据集大小和不同观察时间Windows 1--2 s的影响的研究。相对于雷达，收集了22名受试者的无约束步行数据集。拟议的几次学习（FSL）方法的分类误差为11.3％，每个受试者只有2分钟的培训数据。

translated by 谷歌翻译

Hardware Acceleration of Lane Detection Algorithm: A GPU Versus FPGA Comparison

Mohamed Alshemi , Sherif Saif , Mohamed Taher

分类：计算机视觉

2022-12-19

A Complete Computer vision system can be divided into two main categories: detection and classification. The Lane detection algorithm is a part of the computer vision detection category and has been applied in autonomous driving and smart vehicle systems. The lane detection system is responsible for lane marking in a complex road environment. At the same time, lane detection plays a crucial role in the warning system for a car when departs the lane. The implemented lane detection algorithm is mainly divided into two steps: edge detection and line detection. In this paper, we will compare the state-of-the-art implementation performance obtained with both FPGA and GPU to evaluate the trade-off for latency, power consumption, and utilization. Our comparison emphasises the advantages and disadvantages of the two systems.

translated by 谷歌翻译

THOR -- A Neuromorphic Processor with 7.29G TSOP$^2$/mm$^2$Js Energy-Throughput Efficiency

Mayank Senapati , Manil Dev Gomony , Sherif Eissa , Charlotte Frenkel , Henk Corporaal

分类：神经与进化计算

2022-12-03

Neuromorphic computing using biologically inspired Spiking Neural Networks (SNNs) is a promising solution to meet Energy-Throughput (ET) efficiency needed for edge computing devices. Neuromorphic hardware architectures that emulate SNNs in analog/mixed-signal domains have been proposed to achieve order-of-magnitude higher energy efficiency than all-digital architectures, however at the expense of limited scalability, susceptibility to noise, complex verification, and poor flexibility. On the other hand, state-of-the-art digital neuromorphic architectures focus either on achieving high energy efficiency (Joules/synaptic operation (SOP)) or throughput efficiency (SOPs/second/area), resulting in poor ET efficiency. In this work, we present THOR, an all-digital neuromorphic processor with a novel memory hierarchy and neuron update architecture that addresses both energy consumption and throughput bottlenecks. We implemented THOR in 28nm FDSOI CMOS technology and our post-layout results demonstrate an ET efficiency of 7.29G $\text{TSOP}^2/\text{mm}^2\text{Js}$ at 0.9V, 400 MHz, which represents a 3X improvement over state-of-the-art digital neuromorphic processors.

translated by 谷歌翻译

DBE-KT22: A Knowledge Tracing Dataset Based on Online Student Evaluation

Ghodai Abdelrahman , Sherif Abdelfattah , Qing Wang , Yu Lin

分类：人工智能

2022-08-19

在过去的十年中，在线教育在为全球学生提供负担得起的高质量教育方面的重要性越来越重要。随着越来越多的学生改用在线学习，这在全球大流行期间得到了进一步放大。大多数在线教育任务，例如课程建议，锻炼建议或自动化评估，都取决于跟踪学生的知识进步。这被称为文献中的\ emph {知识跟踪}问题。解决此问题需要收集学生评估数据，以反映他们的知识演变。在本文中，我们提出了一个新的知识跟踪数据集，名为“知识跟踪数据库”练习（DBE-KT22），该练习是在澳大利亚澳大利亚国立大学教授的课程中从在线学生锻炼系统中收集的。我们讨论了DBE-KT22数据集的特征，并将其与知识追踪文献中的现有数据集进行对比。我们的数据集可通过澳大利亚数据存档平台公开访问。

translated by 谷歌翻译

Drift Reduction for Monocular Visual Odometry of Intelligent Vehicles using Feedforward Neural Networks

Hassan Wagih , Mostafa Osman , Mohamed I. Awad , Sherif Hammad

分类：计算机视觉 | 机器人

2022-07-02

在本文中，提出了一种基于进发神经网络的方法来减少单眼视觉探针算法漂移的方法。视觉轨道图算法计算连续摄像机框架之间车辆的增量运动，然后集成这些增量以确定车辆的姿势。提出的神经网络减少了车辆的姿势估计中的误差，这是由于特征检测和匹配，摄像机固有参数等不准确而导致的。这些不准确性传播到对车辆的运动估计，从而导致大量估计误差。降低神经网络的漂移基于连续的摄像头框架中特征的运动来识别此类错误，从而导致更准确的增量运动估计值。使用KITTI数据集对拟议的漂移减少神经网络进行了训练和验证，结果表明，所提出的方法在减少增量方向估计中的误差方面的疗效，从而减少了姿势估计中的总体错误。

translated by 谷歌翻译

Near-Optimal Lower Bounds For Convex Optimization For All Orders of Smoothness

Ankit Garg , Robin Kothari , Praneeth Netrapalli , Suhail Sherif

分类：机器学习

2021-12-02

我们研究了优化高度光滑的凸起功能的复杂性。对于正面整数$ P $，我们想找到$ \ epsilon $ - 占凸函数$ f $的批量最低，假设$ p $ th衍生物的oracle$ f $是lipschitz。最近，三个独立的研究小组（江等，2019年，Plmr 2019; Gasnikov等，Plmr 2019; Bumr 2019，Plmr 2019）开发了一种用$ \ tilde {o}解决这个问题的新算法（1 / \epsilon ^ {\ frac {2} {3p + 1}}）$ Oracle呼叫常量$ p $。已知这是用于确定性算法的最佳（最多为日志因子），但是已知的随机算法的下限与此绑定不匹配。我们证明了一个与此绑定（最多为日志因子）匹配的新绑定，并且不仅适用于随机算法，而且不仅适用于量子算法。

translated by 谷歌翻译